Análisis de Salud Mental y Redes Sociales

Author

Juan Ignacio Cacchione


Objetivo del análisis

El objetivo de este trabajo es generar un documento de análisis de datos que evidencie las etapas de selección, limpieza, exploración y comunicación.

Para ello, se ha seleccionado el dataset “Mental Health and Social Media Balance”, obtenido de la plataforma Kaggle. Este conjunto de datos contiene 500 registros, donde cada fila representa a un individuo único. Se obtuvo de: Kaggle Dataset Link

Este conjunto de datos explora la relación entre el uso de las redes sociales y la salud mental. Incluye información sobre el tiempo de pantalla de los usuarios, la calidad del sueño, los niveles de estrés, la frecuencia de ejercicio y el índice de felicidad. El objetivo es comprender cómo los hábitos digitales y los factores del estilo de vida influyen en el bienestar general y el equilibrio emocional.

Nota sobre la variable Social_Media_Platform: Cada registro incluye la plataforma social que el usuario utiliza con mayor frecuencia (por ejemplo, TikTok, Instagram, LinkedIn, Facebook, YouTube o X/Twitter). Esta información permite analizar si existen diferencias en los hábitos digitales y el bienestar según la red social predominante.


Entornos y librerías

# Vector con los paquetes necesarios
paquetes <- c("readr", "dplyr", "ggplot2", "plotly", "knitr", "kableExtra","tidyr")

# Verificar cuáles paquetes no están instalados
instalados <- paquetes %in% rownames(installed.packages())

# Instalar los paquetes faltantes
if (any(!instalados)) {
  install.packages(paquetes[!instalados])
}

# Cargar todos los paquetes de forma automática
invisible(lapply(paquetes, library, character.only = TRUE))

1.SELECCIÓN

1.1 Carga de datos

datos <- read_delim("Mental_Health_and_Social_Media_Balance_Dataset.csv", 
                    delim = ",", show_col_types = FALSE)

1.2 Dimensiones del dataset

dim(datos)
[1] 500  10

1.3 Resumen general

summary(datos)
   User_ID               Age           Gender          Daily_Screen_Time(hrs)
 Length:500         Min.   :16.00   Length:500         Min.   : 1.00         
 Class :character   1st Qu.:24.00   Class :character   1st Qu.: 4.30         
 Mode  :character   Median :34.00   Mode  :character   Median : 5.60         
                    Mean   :32.99                      Mean   : 5.53         
                    3rd Qu.:41.00                      3rd Qu.: 6.70         
                    Max.   :49.00                      Max.   :10.80         
 Sleep_Quality(1-10) Stress_Level(1-10) Days_Without_Social_Media
 Min.   : 2.000      Min.   : 2.000     Min.   :0.000            
 1st Qu.: 5.000      1st Qu.: 6.000     1st Qu.:2.000            
 Median : 6.000      Median : 7.000     Median :3.000            
 Mean   : 6.304      Mean   : 6.618     Mean   :3.134            
 3rd Qu.: 7.000      3rd Qu.: 8.000     3rd Qu.:5.000            
 Max.   :10.000      Max.   :10.000     Max.   :9.000            
 Exercise_Frequency(week) Social_Media_Platform Happiness_Index(1-10)
 Min.   :0.000            Length:500            Min.   : 4.000       
 1st Qu.:1.000            Class :character      1st Qu.: 7.000       
 Median :2.000            Mode  :character      Median : 9.000       
 Mean   :2.448                                  Mean   : 8.376       
 3rd Qu.:3.000                                  3rd Qu.:10.000       
 Max.   :7.000                                  Max.   :10.000       

Interpretación preliminar: El resumen estadístico revela que la muestra está compuesta por adultos de entre 16 y 49 años, con un consumo promedio de pantalla elevado (5.5 horas diarias).

Un hallazgo destacable es la aparente contradicción entre los niveles de bienestar: mientras que la mediana del Nivel de Estrés es considerable (7), el Índice de Felicidad es extremadamente alto (Mediana de 9), lo que sugiere una distribución sesgada hacia valores altos en esta última variable. Además, no se observan valores faltantes (NA) ni rangos inconsistentes a primera vista.

El análisis del resumen general también nos proporciona contexto sobre el estilo de vida de la muestra. Se observa que, si bien el uso diario de pantalla es elevado (Media de 5.53 horas), la Calidad del Sueño se mantiene en un nivel moderado (Media de 6.3). Complementariamente, la Frecuencia de Ejercicio (Media de 2.44 veces/semana) será un factor crucial a explorar, ya que puede estar actuando como un balanceador entre el estrés y la felicidad reportada.

Ante este resultado, el presente análisis buscará entender la relación entre tiempo de pantalla, estrés y felicidad. Investigaré la paradoja de la convivencia entre alto estrés y alta felicidad, buscando la existencia de patrones. Finalmente, analizaré si existen plataformas específicas (ej. TikTok vs LinkedIn) asociadas a un mayor consumo o malestar.

1.4 Primeras 10 filas en tabla

User_ID Age Gender Daily_Screen_Time(hrs) Sleep_Quality (1-10) Stress_Level (1-10) Days_Without_Social_Media Exercise_Frequency(week) Social_Media_Platform Happiness_Index (1-10)
U001 44 Male 3.1 7 6 2 5 Facebook 10
U002 30 Other 5.1 7 8 5 3 LinkedIn 10
U003 23 Other 7.4 6 7 1 3 YouTube 6
U004 36 Female 5.7 7 8 1 1 TikTok 8
U005 34 Female 7.0 4 7 5 1 X (Twitter) 8
U006 38 Male 6.6 5 7 4 3 LinkedIn 8
U007 26 Female 7.8 4 8 2 0 TikTok 7
U008 26 Female 7.4 5 6 1 4 Instagram 7
U009 39 Male 4.7 7 7 6 1 YouTube 9
U010 39 Female 6.6 6 8 0 2 Facebook 7

2. LIMPIEZA

2.1 Control para asegurar que no haya inconsistencias

Errores_Edad Errores_Pantalla Errores_Indices
0 0 0

Se confirma que no hay valores inconsistentes o atípicos

2.2 Transformación y Depuración

En este paso se recodifican las variables de texto a factores (Gender, Social_Media_Platform) para su correcta interpretación en la visualización. Además, se crea la variable ordinal Stress_Category a partir de la escala numérica de estrés, lo cual es esencial para realizar comparaciones por grupos (como Boxplots y tablas de resumen) en la etapa de Exploración. También se la convierte a factor.

datos_limpios <- datos %>%
  mutate(
    Gender = factor(Gender),
    Social_Media_Platform = factor(Social_Media_Platform),
    Stress_Category = case_when(
      `Stress_Level(1-10)` <= 4 ~ "Bajo (1-4)",
      `Stress_Level(1-10)` <= 7 ~ "Medio (5-7)",
      TRUE                      ~ "Alto (8-10)"
    ),
    Stress_Category = factor(Stress_Category, 
                             levels = c("Bajo (1-4)", "Medio (5-7)", "Alto (8-10)"), 
                             ordered = TRUE)
  )

3. EXPLORACIÓN

3.1 Análisis Univariado

En esta sección profundizaremos en el comportamiento individual de las variables claves. Este análisis gráfico actúa como un complemento visual al resumen estadístico (summary) presentado anteriormente, permitiéndonos detectar formas de distribución, sesgos y patrones de frecuencia.

3.1.1 Distribución de Edad

La muestra está compuesta principalmente por adultos jóvenes y de mediana edad, con una mediana de 34 años y la mayoría concentrada entre 24 y 41 años. Esto indica que el grupo analizado corresponde a personas en etapas activas de vida laboral y social. Los extremos son poco frecuentes: menores de 20 años representan una proporción reducida, y no hay presencia de adultos mayores (≥60). En conjunto, la distribución sugiere que el análisis se centra en una muestra orientada a perfiles productivos, lo que puede influir en patrones como uso de redes sociales, tiempo frente a pantalla y niveles de estrés.

3.1.2 Distribución de Estrés

La distribución de los niveles de estrés en la muestra de 500 individuos presenta un claro sesgo hacia valores altos. El puntaje de estrés más frecuente es 7, seguido por 8 y 6, lo que sitúa el centro de la distribución en la mitad superior de la escala. El análisis categórico confirma que la mayoría de los usuarios se concentran en el rango de Estrés Medio (5-7) y Alto (8-10), mientras que el Estrés Bajo es el menos común.

3.1.3 Distribución por Género

La muestra está compuesta principalmente por personas identificadas como masculinos (248) y femeninos (229), con una diferencia pequeña entre ambos grupos. La categoría Other representa una proporción muy reducida (23 casos).

3.1.4 Distribución de Felicidad

El histograma presenta una clara asimetría hacia la izquierda. La gran mayoría de los datos se agrupan en los valores más altos, con el puntaje 10 como el más frecuente (moda). La falta de respuestas en los niveles bajos (1-3) evidencia una fuerte tendencia de la muestra a reportar niveles máximos de bienestar.

3.1.5 Disribución de Red Social

Distribución de Usuarios por Plataforma Social
Red Social Cantidad Porcentaje (%)
TikTok 95 19.0
X (Twitter) 88 17.6
LinkedIn 87 17.4
Facebook 81 16.2
YouTube 75 15.0
Instagram 74 14.8

La tabla de frecuencias revela una distribución de la muestra relativamente equilibrada entre las seis plataformas sociales principales. La plataforma más utilizada es TikTok (19%), seguida de cerca por X (Twitter) y LinkedIn, sin que ninguna red social supere el 20% de la muestra total.

3.2 Análisis Bivariado

Una vez comprendida la distribución individual de las variables, procedemos a evaluar la interacción entre ellas.

3.2.1 Relación entre Tiempo de Pantalla y Felicidad

Este gráfico confirma la fuerte correlación inversa y enriquece el hallazgo conectándolo con el análisis univariado. Se observa claramente un núcleo de alta densidad (zonas más claras/brillantes) en los niveles de felicidad 8, 9 y 10.

Sin embargo, este núcleo se desplaza hacia abajo a medida que nos movemos a la derecha en el eje X (más horas de pantalla). Esto evidencia visualmente que, aunque la muestra tiende a ser feliz, sostener esos niveles de bienestar se vuelve muy difícil para los usuarios con consumo digital intensivo.

3.2.2 Relación entre Uso de Pantalla vs Estrés

Uso de Pantalla según Nivel de Estrés
Stress_Category Promedio_Horas Mediana_Horas Desvio_Estandar
Bajo (1-4) 3.24 3.0 1.18
Medio (5-7) 5.11 5.1 1.34
Alto (8-10) 7.15 7.1 1.25

El gráfico confirma una relación directa: a mayor estrés, mayor tiempo frente a la pantalla. Se observa una brecha de 4.1 horas en la mediana de uso entre los grupos extremos (3.0 h en Estrés Bajo vs. 7.1 h en Estrés Alto). La clara separación entre las cajas del boxplot indica que el uso intensivo de dispositivos es un comportamiento distintivo asociado al malestar psicológico, y no un hecho aislado.

3.2.3 Relación Felicidad vs Estrés

`geom_smooth()` using formula = 'y ~ x'

El gráfico evidencia una relación inversa marcada entre estrés y felicidad. Se observa que la mayor densidad de puntos se concentra en niveles de Felicidad alta (puntuaciones de 9 y 10), incluso cuando el Estrés se sitúa en rangos medios (5-7 puntos). Esto puede indicar que, para esta muestra, el estrés moderado es un estado normalizado o percibido como saludable (Eustrés). No obstante, la línea de tendencia confirma que el incremento del estrés a niveles altos (por encima de 8) se asocia con una caída significativa en la percepción de felicidad.

3.2.4 Mapa de calor de correlaciones

Para finalizar esta sección y asegurarnos de no omitir ninguna relación relevante entre las variables numéricas restantes, presentamos un mapa de calor (heatmap) que resume todas las interacciones del dataset.

Este gráfico nos permite validar los hallazgos previos y descubrir nuevas conexiones en las variables que no graficamos individualmente:

1- El rol oculto del Sueño: Se observa que la Calidad del Sueño) juega un papel fundamental. Tiene una correlación positiva muy fuerte con la Felicidad (0.73) y negativa con el Tiempo de Pantalla (-0.63). Esto sugiere un efecto en cadena: más pantallas \(\rightarrow\) peor sueño \(\rightarrow\) menos felicidad.

2- Validación del Triángulo Principal: Los colores más intensos confirman que el triángulo Estrés-Pantalla-Felicidad presenta las correlaciones más fuertes del sistema, validando que son los ejes principales del bienestar en esta muestra.

3-Variables de bajo impacto: Confirmamos visualmente (colores claros/blancos) que ni la Edad, ni genero, ni hacer Ejercicio tienen un peso determinante en la ecuación de felicidad o estrés para este grupo de datos.

3.3 Análisis Multivariado

Una vez confirmadas las relaciones bivariadas principales, elevamos el nivel del análisis. El objetivo es verificar la universalidad de la correlación negativa (Pantalla \(\downarrow\) Felicidad) al incorporar dos variables de control: el Género y la Plataforma Social. Esto permite determinar si alguna categoría actúa como un factor diferenciador o si el impacto digital es totalmente homogéneo.

3.3.1 Relacion entre Tiempo Pantalla vs Felicidad por Género

`geom_smooth()` using formula = 'y ~ x'

El análisis confirma que el género no influye en la relación entre el tiempo de pantalla y la felicidad. La tendencia negativa (más pantalla \(\rightarrow\) menos felicidad) es uniforme para Femenino, Masculino y la categoría Otros, ya que todas las líneas de regresión en el gráfico facetado tienen pendientes negativas y visualmente similares.

3.3.2 Relación Pantalla vs Felicidad por Plataforma Social

`geom_smooth()` using formula = 'y ~ x'

El análisis confirma que la tendencia negativa entre el tiempo de pantalla y la felicidad se manifiesta en todos los paneles del gráfico. Si bien existen diferencias en la dispersión de los puntos (matices), la regla básica de que a mayor uso de pantalla, menor es la felicidad se mantiene para todas las redes sociales principales.


4. COMUNICACIÓN

Conclusiones

El análisis de los 500 perfiles en el dataset Mental Health and Social Media Balance revela patrones claros sobre cómo nuestra vida digital moldea y a menudo deteriora el bienestar emocional.


1. Correlación Pantalla y Bienestar 📉

Nuestros datos confirman el costo real de la hiperconectividad: existe una correlación inversa muy fuerte entre el tiempo que pasamos frente a la pantalla y nuestro índice de felicidad.

Aunque muchos usuarios reportan altos niveles de bienestar, esta disminuye sistemáticamente con el incremento del tiempo digital. Este no es un problema casual; es una tendencia robusta que demuestra que la gestión del tiempo digital es vital.

2. Estrés y Consumo Digital 📱

El estrés actúa como un catalizador para el uso de dispositivos. Las personas con estrés alto duplican la mediana de tiempo frente a la pantalla respecto a quienes tienen estrés bajo (pasando de \(\approx\)3 horas a \(\approx\)7 horas diarias).

Esto refuerza la hipótesis de que las pantallas se convierten en un mecanismo de evasión. Sin embargo, este refugio es contraproducente, ya que este alto consumo, a su vez, se asocia a una caída en la percepción general de bienestar.

3. El Tiempo Total como Factor Crítico 🌎

Analizamos si el problema estaba en la plataforma, pero la respuesta es contundente: el problema no es la red social, es el tiempo total de exposición.

La tendencia negativa entre tiempo de pantalla y bienestar se observó uniformemente en todos los géneros y en todas las plataformas (TikTok, LinkedIn, Instagram, etc.). La intensidad del impacto digital es la misma para el perfil más joven que para el adulto de mediana edad.


Reflexión Final y Opinion Personal:

Las redes sociales son herramientas poderosas para la conexión y el entretenimiento. Aunque los datos utilizados son de naturaleza educativa, reflejan una realidad que muchos percibimos: el uso excesivo está fuertemente asociado con indicadores negativos de salud mental. Reducir el tiempo frente a la pantalla de los dispositivos moviles es esencial para proteger nuestro equilibrio emocional en la era digital.